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摘 要 : 


[目的 /意义 ] 叶 球 是 结 球 甘 蓝 的 重要 部 分 ， 其 生长 发 育 对 田间 管理 至 关 重 要 。 针 对 叶 球 分 割 识别 存在 大 


田 背 景 复杂 、 光 照 不 均匀 和 叶片 纹理 相似 等 问题 ， 提 出 一 种 语义 分 割 算 法 UperNet-ESA， 旨 在 能 快速 、 准 确 地 分 


割 田间 场景 中 结 球 甘 蓝 的 外 叶 和 叶 球 ， 以 实现 田间 结 球 甘蓝 的 智能 化 管理 。[ 方 法 ] 首先 ， 采 用 统一 感知 解析 网 络 


(Unified Perceptual Parsing Network, UperNet) 作为 高 效 语义 分 割 框 架 ， 将 主干 网 络 改 为 先进 的 ConvNeXt， 使 得 模 
型 在 提升 分 割 精 度 的 同时 也 能 具有 较 低 的 模型 复杂 度 ; 其 次 ， 利 用 高 效 通道 注意 力 机 制 (Efficient Channel Atten- 
tion, ECA) 融入 特征 提取 网 络 的 各 阶段 ， 进 一 步 捕捉 图 像 的 细节 信息 ; 最 后 ， 通 过 将 特征 选择 模块 (Feature Se- 
lection Model, FSM) 和 特征 对 齐 模块 (Feature Alignment Model, FAM) 集成 到 特征 金字 塔 框架 中 ， 得 到 更 为 精确 的 


目标 边界 预测 结果 。[ 结 果 和 讨论 ] 在 自制 结 球 甘 蓝图 像 数 据 集 上 进行 实验 ， 与 目前 主流 的 UNet、PSPNet 和 Deep- 


labV3+ 语 义 分 割 模型 相 比 ， 改 进 UperNet 方 法 的 平均 交 并 比 为 92.45% ， 平 均 像 素 准 确 率 为 94.32%， 推 理 速度 为 
16.6 fs ， 能 够 达到 最 佳 精度 -速度 平衡 效果 。[ 结 论 ] 人 研究 成 果 可 为 结 球 甘 蓝 生长 智能 化 监测 提供 理论 参考 ， 对 甘 


蓝 产 业 发 展 具有 重要 的 应 用 前 景 。 
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051 言 

结 球 甘蓝 (Brassica oleracea var. capitata L.) , 
fal PRA, EHR EE a Se i PP, HEE 
植 后 的 生命 周期 主要 分 为 莲座 期 和 结 球 期 ， 主 要 生 
长 特征 是 其 外 叶 和 叶 球 ， 而 甘蓝 叶 球 性 状 可 以 指导 
田间 水 肥 参 数 调整 ， 以 及 影响 甘蓝 的 最 终 产 量 "。 
在 农业 领域 ， 快 速 精准 全 面 地 掌握 作物 的 生长 状态 
十 分 重要 ， 利 于 及 时 采取 有 效 的 田间 管理 措施 ， 能 
够 减少 甘蓝 产业 受 损 风险 。 目 前 甘蓝 叶 球 区 域 的 观 
察 方式 还 是 以 人 工 为 主 ,不 仅 费 时 费力 ， 而 且 存 在 
人 员 间 偏差 与 实时 性 不 高 等 客观 问题 。 在 大 规模 露 
地 甘蓝 种 植 模式 下 ， 利 用 田间 自动 巡 检 机 右 人 对 甘 
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蓝 生 长 状态 进行 监测 ， 是 未 来 人 工 智能 技术 在 农业 
生产 中 应 用 中 不 断 推 广 的 趋势 。 

近年 来 ， 随 着 深度 学 习 (Deep Learning, 
DL) ”的 发 展 和 应 用 ， 越 来 越 多 的 分 割 问题 7 
由 DL 技 术 解 决 。 通 过 使 用 大 量 标记 数据 集 输入 模 
型 进行 实验 ， 极 大 地 提高 了 模型 的 预测 精度 。 卷 积 
TR ZS [e| 2& *'" (Convolutional Neural Network, 
CNN) 作为 在 DL 学 习 领 域 中 的 一 个 关键 架构 ， 经 
党 被 研究 人 员 应 用 到 农业 分 割 领域 。Zhang 等 '" 提 
出 了 一 种 以 UNet++ 为 基本 框架 的 孢子 分 割 模型 。 
该 模型 将 ResNet 和 全 连接 条 件 随机 场 相 结 合 ， 平 均 
像素 准确 率 和 平均 交 并 比分 别 达到 97.5% 和 94.3%。 
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Zheng 等 设计 了 一 种 使 用 RGB 图 像 的 视觉 算法 , 
将 芒果 以 实例 的 形式 进行 分 制 ， 平 均 精 确 度 和 平均 
召回 率 分 别 达到 了 94.7% 和 92.9%。 王 璨 等 提出 
了 改进 的 双 注 意 力 语 义 分 割 方法 ， 能 够 有 效 识别 与 
分 割 玉米 ， 平 均 交 并 比 达到 94.16%， 平 均 像 素 识别 
准确 率 为 95.68%。 刘 平等 ”提出 的 小 麦 开花 期 判 
定 方 法 ， 可 以 准确 地 分 割 识别 小 花 和 小 穗 ， 平均 识 
别 精度 分 别 达到 了 91% 和 90.9%。Song 等 ' 利用 
基于 ResNet 的 DeepLabV3+ 对 猕猴 桃 冠 层 图 像 进 行 
果林、 校 、 丝 的 分 割 效果 也 能 得 到 较 高 精度 。CNN 
能 够 有 效 提取 农作物 信息 ,但 主要 针对 背景 简单 且 
特征 明显 的 作物 ， 而 甘蓝 受 土壤 、 光 照 、 叶 片 交 肢 
遮挡 、 叶 球 与 外 叶 颜 色 纹 理 相 似 等 影响 ， 使 得 现 有 
的 识别 模型 难以 对 甘蓝 叶 球 和 外 叶 进 行 精细 分 割 |。 
相 比 于 CNN，Transformer 可 以 通过 图 像 块 直接 的 
关系 进行 建 模 ， 自 动 学 习 网 像 中 的 注意 力 分 制 ， 并 
聚焦 于 最 具 信息 量 的 区 域 '， 能 够 学 习 到 更 丰富 
的 语义 信息 。Zheng 等 ”通过 在 Transformer 的 每 
一 层 中 建 模 全 局 上 下 文 。 该 编码 器 可 以 与 简单 的 解 
码 器 相 结 合 来 提供 一 个 强大 的 分 割 模型 。Reedha 
等 1 中 通过 ViT 模 型 准确 地 区 分 作物 和 杂 草 ， 克 服 
了 两 者 因 纹 理 相 似 而 难以 有 效 分 割 的 问题 。Xie 
等 提出 了 一 种 简单 有 效 且 和 鲁 棒 性 强 的 Segformer 
语义 分 割 框 架 ， 将 Transformer 和 轻 量 级 多 层 感 知 需 
解码 需 结 合 在 一 起 。 由 于 视觉 领域 大 部 分 网 像 分 辩 
率 较 高 ， 直 接 使 用 Transformer 进行 特征 提取 会 带 来 
庞大 的 计算 量 ， 无 法 满足 田间 作物 识别 的 实时 性 
要 求 。 

为 了 解决 复杂 背景 下 甘蓝 叶 球 和 外 叶 分 割 精度 
和 实时 性 低 的 问题 ， 本 研究 将 DL 引入 到 甘蓝 叶 球 
和 外 叶 分 割 任 务 中 ， 并 建立 真实 场景 下 的 甘蓝 数据 
集 进行 实验 ， 提 出 一 种 基于 UperNet-ESA 的 语义 分 
割 算 法 。 将 UperNet ”作为 高 效 的 语义 分 割 框架 ， 
选取 先进 的 主干 网 络 ConvNeXt“""， 在 确保 分 割 精 
度 的 同时 使 用 复杂 度 较 低 的 模型 。 由 于 叶 球 和 甘蓝 
外 叶 颜 色 纹理 相似 ， 为 了 进一步 加 强 叶 球 区 域 的 特 
征 提 取 , 在 主干 网 络 中 融合 了 高 效 通道 注意 力 机 制 
(Efficient Channel Attention, ECA) 模块 。 并 且 由 于 
甘蓝 作物 形态 不 规则 ， 为 了 加 强 目标 边界 信息 的 提 
取 ， 将 特征 选择 模块 (Feature Selection Model, 
FSM) 和 特征 对 齐 模块 (Feature Alignment Model, 
FAM) 集成 到 特征 金字 塔 网 络 中 来 提升 模型 的 预测 
结果 。 通 过 实验 对 比 验 证 本 研究 模型 具有 可 行 性 ， 
为 智能 化 田间 甘蓝 生长 监测 管理 提供 理论 依据 。 


1 材料 与 方法 
1.1 数据 集 构建 
1.1.1 数据 获取 

图 像 数 据 来 源 于 北京 小 汤山 国家 农业 信息 化 工 
程 技术 研究 中 心 精准 农业 实验 基地 。 选 用 甘蓝 品 
为 中 甘 -21， 数 据 采 集 时 间 为 2022 年 9 一 11 月 。 采 
集 的 图 像 涵盖 丰富 多 样 的 背景 元 素 、 光 照 差异 及 生 
长 变化 等 真实 信息 ， 有 助 于 提升 模型 在 现实 应 用 中 
的 泛 化 性 。 采 用 垂直 俯视 角度 拍摄 ， 设 备 距 地 面 高 
度 为 50 cm。 图 像 采 集 的 位 置 是 室外 大 田 ， 共 筛选 
了 甘蓝 图 像 700 幅 。 

采集 的 图 像 选用 专业 标注 软件 Labelme 
(v4.5.6)， 通 过 手动 选择 目标 轮廓 上 的 点 ， 并 将 它 
们 连接 起 来 以 绘制 出 符合 边界 形状 的 封闭 多 边 形 区 
域 ， 自 动 生 成 保存 为 *.json 文 件 。 在 作物 叶 球 识别 
任务 中 ， 由 于 甘蓝 叶 球 和 外 叶 密 切 相 关 ， 需 要 同时 
标注 甘蓝 叶 球 和 外 叶 两 部 分 ， 生 成 掩 膜 。 标 注 后 的 
图 像样 本 如 图 1 所 示 。 按 照 PASCAL VOC2012 格 式 
生成 数据 集 ， 将 数据 集 划 分 为 训练 集 和 测试 集 两 部 
分 ， 其 中 训练 集 占 总 数据 集 的 80%， 测试 集 占 
20%， 并 且 两 集合 间 无 重复 数据 。 


a. 原始 图 像 b. 标注 
Al 甘蓝 图 像 标注 方法 示例 

Fig. 1 Example of kale image annotation method 
1.1.2 ”数据 增强 

为 了 提升 语义 分 割 精 度 ， 通 过 数据 增强 ”的 
方法 来 扩充 训练 集 样 本 的 数量 ， 使 得 模型 得 到 更 为 
充分 的 训练 ， 包 括 : 1) 亮度 调整 ， 随 机 选择 
0.35—1 的 值 来 对 亮度 进行 调整 ， 以 此 来 模拟 不 同 
时 间 段 采集 的 图 像 ，2) 随机 旋转 ， 以 水 平 翻转 、 
垂直 翻转 、 水 平 垂直 都 翻转 3 种 方式 ， 来 扩充 不 同 
位 置 得 到 新 的 图 像 ; 3) 添加 高 斯 噪声 ， 使 得 模型 
学 习 图 像 变 化 的 微小 特征 。 通 过 上 述 方法 随机 组 合 
将 训练 集 扩展 为 原来 的 12 倍 ， 数 据 增强 部 分 效果 
如 图 2 所 示 。 这 些 图 像 增强 方法 的 结合 模拟 图 像 采 
集 过 程 中 拍摄 角度 和 光 强 的 变化 ， 增 加 训练 样本 的 
多 样 性 ， 提 高 模型 的 鲁 棒 性 和 泛 化 能 


c. 标签 
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b. 亮度 变化 C.F 


d. 旋转 
È: e~f 均 表示 亮度 变化 + 旋转 + 噪声 3 种 方法 随机 组 合 的 数据 增强 图 。 


e. 随机 组 合 1 f. 随机 组 合 2 g. 随机 组 合 3 


h. 随机 组 合 4 


图 2 原始 及 数据 增强 后 的 结 球 甘 蓝图 像 
Fig. 2 Original and data enhanced images of kale 


1.2 UperNet-ESA 的 语义 分 割 算法 

本 人 研究 主要 针对 田间 复杂 背景 下 甘蓝 外 叶 和 叶 
球 的 分 割 ， 通 过 像素 值 确 定 叶 球 的 大 小 ， 判 断 甘蓝 
生长 情况 ， 从 而 进行 智能 化 管理 。 语 义 分 割 作为 计 
算 机 视觉 的 一 个 重要 分 支 ， 人 们 提出 了 各 种 先进 的 
端 到 端 深度 计算 机 视觉 架构 ， 包 括 UNet 、 
PSPNet "', DeepLabV34 ^' 等 。 这 些 体系 结构 在 
语义 分 割 任务 上 表现 良好 ， 但 它们 只 有 在 特定 场景 
处 理 分 割 任务 时 效果 较 好 ， 本 研究 根据 复杂 背景 
甘蓝 叶 球 和 外 叶 的 形态 特征 ， 基 于 UperNet 研究 
UperNet-ESA 算法 ， 关 于 改进 的 UperNet 语 义 分 割 
框架 可 以 用 来 提高 叶 球 识别 分 割 精度 和 速度 ， 与 之 
前 提出 的 几 个 架构 不 同 的 是 ， 它 能 够 在 保留 空间 细 
节 的 同时 ， 有 效 地 融合 不 同 尺 度 的 语义 信息 ， 更 适 
用 于 复杂 场景 下 作物 的 特征 提取 。UperNet-ESA 语 
义 分 割 结 框架 如 图 3 所 示 。 该 算法 主要 改进 主干 网 
络 ConvNeXt， 通 过 将 ECA 模 块 融 入 特征 提取 网 络 
的 各 阶段 来 加 强 目 标 区 域 的 特征 提取 ; 同时 改进 特 
征 金字 塔 网 络 结构 ， 将 FAM 和 FSM 集 成 到 其 中 以 
加 强 目标 边界 信息 的 提取 。 
1.2.1 主干 网 络 

主干 网 络 负 责 模 型 的 特征 提取 任务 ， 考 虑 甘蓝 
叶 球 与 外 叶 间 存在 相似 性 和 叶片 交 又 等 问题 ， 使 得 
目标 轮廓 定位 困难 ， 分 割 精 度 低 。 在 计算 机 视觉 领 
域 ，CNN 一 直 是 主流 模型 ， 但 近年 来 由 于 Trans- 
former 的 内 在 结构 在 各 种 计算 机 视觉 任务 上 也 表现 
出 优异 的 性 能 。ConvNeXt 充 分 结合 CNN 和 Trans- 
former 的 优异 性 能 ， 以 ResNet50 作为 基础 ， 并 且 
借鉴 Swin Transformer °°) 的 设计 理念 ， 使 得 网 络 
结构 非常 简洁 ,在 提升 分 割 精 度 的 同时 也 能 具有 
较 低 的 模型 复杂 度 ， 是 目前 性 能 较 好 的 CNN。 

对 于 ConvNeXt 网 络 ， 根 据 模型 计算 复杂 度 的 
不 同 ， 共 有 4 个 (T/S/B/L) 版 本 。 本 研究 综合 考 
虑 结 球 甘 蓝图 像 数 据 集 背 景 复 杂 的 特征 ， 使 用 
ConvNeXt-B 版 本 。 模 型 包括 4 个 阶段 ， 每 个 阶段 


主要 由 下 采样 层 (Downsample) 和 ConvNeXt 块 组 
成 ， 最 后 经 全 局 平均 池 化 (Global Average Pooling, 
GAP)、 层 标准 化 (Layer Normalization, LN) 与 全 
连接 (Linear) 等 操作 后 ,输出 特征 图 ， 模 型 结构 
如 图 4a 所 示 。 为 了 提高 模型 的 感受 野 ， 将 每 个 阶 
段 的 块 比 设置 为 3 :3 : 27 : 3, 通道 数 分别 设 为 
128, 、256 、512 、1 024。ConvNeXt 块 结构 如 图 4b 
所 示 ， 首 先 将 输入 的 特征 图 经 过 深度 可 分 离 卷 积 
(Depthwise Conv2d) 及 LN， 之 后 经 过 普通 卷 积 
(Conv2d) 等 操作 ， 并 且 只 在 该 模块 中 的 1X1 卷 积 
层 后 加 入 高 斯 误差 线性 单元 (Gaussian Error Linear 
Unit, GELU) 激活 函数 。 最 后 ， 对 特征 图 进行 一 系 
列 升 维 与 降 维 处 理 后 ， 使 其 输出 原 尺 寸 特征 图 。 其 
中 GELU 可 以 被 认为 是 ReLU 的 一 个 更 平滑 的 变 体 ， 
能 有 效 防 止 过 拟 合 。 关 于 Downsample 结构 如 图 4c 
所 示 ， 主 要 通过 一 个 LN 加 上 一 个 卷 积 核 大 小 为 2， 
步 距 为 2 的 卷 积 层 构 成 。 
1.2.2 ”注意 力 机 制 

甘蓝 叶 球 和 外 叶 纹 理 相 似 ， 在 主干 网 络 中 融合 
注意 力 机 制 ， 能 使 网 络 自 适应 地 注意 甘蓝 外 叶 和 叶 
球 目 标 。ECA 模块 具有 计算 效率 高 、 模 型 复杂 度 低 
的 优势 ， 能 够 改善 模型 在 复杂 场景 下 特征 提取 的 性 
能 。 本 研究 在 ConvNeXt-B 的 基础 上 改进 模型 架构 , 
将 ECA 集 成 在 每 一 个 ConvNeXt 块 后 。 通 过 注意 权 
值 应 用 于 残 差 倒转 的 特征 映射 时 ， 在 每 个 块 上 循环 
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图 3 UperNet-ESA 73 X 4 3| 72 Z 


Fig. 3 UperNet-ESA semantic segmentation framework 
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a. ConvNeXt-B 网 络 结构 


图 4 ConvNeXt-B 网 络 架 构图 
Fig. 4 Network architecture diagram of ConvNeXt-B 


训练 注意 参数 。 然 后 每 个 块 循 环 对 象形 成 一 个 具有 
注意 权 值 的 特征 图 ， 实 现 了 注意 参数 的 重复 训练 ， 
继而 增强 对 全 局 特征 信息 的 捕获 。 

ECA 模块 利用 GAP 降 低 通 道 维度 ， 并 使 用 1D 
卷 积 操作 对 通道 进行 建 模 。 通 过 将 运算 应 用 在 通道 
维度 上 ， 可 以 更 加 高 效 地 处 理 大 规模 输入 数据 ， 并 
减少 计算 和 内 存 资 源 的 需求 。 在 GAP 操 作 后 确定 
自 适应 核 大 小 类， 关于 大 的 计算 如 公式 (1) BUR; 
同时 ， 利 用 Sigmoid 激 活 函 数 (o). 进行 对 应 权重 的 
归 一 化 ; 最 后 ， 将 已 生成 的 各 个 通道 权重 与 输入 特 
征 图 相 加 权 ， 以 获得 经 过 通道 注意 力 调整 后 的 特征 
图 。ECA 模 块 如 图 5 所 示 。 

et a) 

y y 

式 中 : y 和 5 为 函数 参数 ,分 别 设 为 2 和 1; C 
为 输入 的 通道 数 。 

1.2.3 FSM 和 FAM 模块 

UperNet 的 模型 设计 主要 基于 金字 塔 池 化 模块 
和 特征 金字 塔 网 络 两 部 分 组 成 ， 其 中 上 采样 和 局 部 
特征 之 间 直 接 添 加 像素 会 导致 具有 不 对 齐 上 下 文 的 
特征 映射 ， 从 而 会 在 甘蓝 叶 球 和 外 叶 的 边界 上 出 现 
错误 预测 分 类 。 由 于 甘蓝 叶 球 和 外 叶 具 有 纹理 相似 
性 和 形状 不 规则 等 特点 ， 更 加 提升 模型 分 割 难度 。 


k= | 


注 : C 表 示 通 道 数 ;及 和 W 分 别 表示 高 度 和 宽度 ;k 表 示 一 维 卷 积 局 部 
交互 大 小 。 
图 5 ECA 模 块 结构 图 
Fig. 5 Structure diagram of ECA module 


为 了 解决 上 述 问题 ， 本 研究 将 FSM Fil FAM 集成 到 
特征 金字 塔 网 络 中 ， 以 此 来 改善 模型 的 预测 结果 。 
FSM 能 有 选择 地 保留 重要 的 特征 有 映射， 丢弃 
无 用 的 特征 映射 进行 信道 缩减 ， 并 相应 地 重新 校 
准 。FSM 的 结构 如 图 6 所 示 ， 计 算 如 公式 (2) 和 
公式 (3) 所 示 。 
u=f,(z) (2) 
C,=f,(C,+u X C,) (3) 
AP: z 为 通过 全 局 平均 池 化 操作 从 输入 特征 
映射 ; f, CO 为 特征 重要 性 建 模 层 ; u 为 特征 重要 
性 向 量 ;，C 和 Ci 分 别 为 输入 特征 和 输出 特征 映射 ; 
f£. CO 为 特征 选择 层 。 


图 6 特征 金字 塔 网 络 的 特征 选择 模块 图 


Fig. 6 Feature selection module diagram for feature pyramid 


networks 


FAM 包括 一 个 可 变形 的 卷 积 ， 用 于 学 习 像 素 
的 变换 偏 移 量 ,以 在 上 下 文中 对 齐 上 采样 的 高 级 特 
征 。 与 标准 卷 积 不 同 ， 可 变形 卷 积 在 感受 野 中 引入 
本 可 学 习 的 偏 移 量 ,能够 更 好 地 去 覆盖 目标 形状 


周围 。 特 征 对 齐 的 过 程 可 以 用 数学 方法 表示 ， 如 
公式 (4) 和 公式 (5) 所 示 。 
A= CEP (4) 
Pr =f APA) (5) 


RP: 已 为 上 采样 的 特征 图 ; C,，, 为 相应 的 自 
底 向 上 特征 图 输入 的 FSM 的 输出 。 通 过 元 素 添加 
或 通道 连接 的 特征 融合 都 会 损害 目标 边界 周围 的 预 
iM, P'5 C- 之 间 存 在 可 预见 的 空间 错位 。 因 此 ， 
在 进行 特征 聚合 前 ， 通 过 C ,和 局 ' 的 拼接 ， 再 进行 
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f, (.) BARES EE IK BOT FREE Bs f, C) 为 从 空 
间 差 中 获取 偏 移 量 A, 的 函数 。FAM 结构 如 图 7 所 
示 。 对 于 3X3 的 卷 积 屋 ，N 值 为 9。 


AZ 


图 7 特征 金字 塔 网 络 的 特征 对 齐 模块 图 


Fig. 7 Feature alignment module diagram for feature pyramid 


networks 


FSM H ii RR EAS IUS Te JÉ 
状 和 方向 所 提取 的 信息 ， 以 实现 精确 定位 ; FAM 
通过 使 用 学 习 到 的 偏 移 量 调整 卷 积 核 中 的 每 个 采样 
位 置 来 学 习 将 上 采样 特征 映射 对 齐 到 一 组 参考 特征 
映射 ; 将 FSM FI FAM 这 两 个 模块 集成 在 一 个 自 上 
而 下 的 特征 金字 塔 网 络 中 ， 以 实现 目标 边界 框 的 精 
准 预 测 。 


2 实验 与 分 析 


2.1 实验 平台 配置 

本 研究 实验 环境 基于 Window 10 操 作 系 统 的 计 
算 机 ， 中 央 处 理 器 (CPU) A AVX2, BIJE Ak BERS 
(GPU) Jj NVIDIA GeForce RTX 2080 Ti。 编 程 语 
言 为 python 3.8， 通 用 并 行 计算 架构 为 CUDA 10.2, 
cuDNN 7.6.5 用 于 深度 神经 网 络 的 GPU 加 速 库 ， 计 
算 机 视觉 库 为 OpenCV 4.7.0， 采 用 Pytorch 1.7.1 深 
度 学 习 框 架 对 本 研究 分 割 模 型 进行 搭建 和 参数 
调整 。 
2.2 评价 指标 

本 研究 模型 的 性 能 评价 指标 主要 采用 平均 像素 
准确 率 (Mean Pixel Accuracy, mPA) 、 平 均 交 并 比 
(Mean Intersection over Union, mIoU) ， 以 及 模型 的 
推理 速度 fps 来 评估 图 像 分 割 模 型 性 能 。 其 中 mPA 
衡量 了 模型 对 各 个 类 别 的 像素 进行 正确 预测 的 平均 
准确 率 ， 越 高 的 mPA 值 表示 模型 的 像素 预测 精度 越 
好 ,计算 如 公式 (6) 所 示 。mIoU 通过 计算 预测 分 
制 结果 与 真实 分 割 结果 的 交集 和 并 集 之 比 来 衡量 模 
型 的 分 割 准确 度 。 该 指标 越 高 表示 预测 结果 与 真实 


结果 的 重合 度 越 高 ， 模 型 的 分 割 效 果 也 就 越 好 。 定 
义 如 公式 〈7) 所 示 。 


mPA = L pus (6) 
~N+14t, 
1 < n 
BUE Le (7) 


us + Ya, 一 hy 
RP: N 为 分 割 的 目标 类 别 数量 (无 背景 的 情 
况 )， 个 ; nm, 为 正确 分 类 的 像素 数 ，PPI; t= Nn, 


为 目标 类 别 i 的 像素 数 ，PPI; nj 为 目标 类 别 i 被 预 
测 为 类 别 j 的 像素 数 ，PPI; nj 为 目标 类 别 j 被 预测 
为 类 别 i 的 像素 数 ，PPI。 

2.3 结果 分 析 


2.3.1 网 络 训练 

将 训练 效果 最 好 的 文件 保存 为 权重 文件 ， 然 后 
用 于 测试 。 为 了 提高 模型 的 训练 效果 ， 采 用 Adam 
优化 器 ， 设 置 初始 学 习 率 为 Se-4， 权 重 衰减 为 
0.01, 动量 因子 为 0.9。 在 训练 过 程 中 ， 共 进行 300 
轮 的 迭代 。 其 中 ,前 50 轮 被 用 于 进行 冻结 训练 ， 
在 最 初 训练 过 程 中 ， 可 能 会 对 模型 的 某 些 部 分 Cu 
权重 ) 进行 限制 ， 以 便 稳 定 模型 的 初始 学 习 。 然 
后 ， 在 接 下 来 的 250 轮 训练 中 ， 对 整个 模型 进行 解 
冻 ， 人 允许 所 有 参数 进行 更 新 和 优化 。 这 种 冻结 和 解 
冻 的 训练 策略 有 助 于 模型 在 初始 阶段 进行 有 针对 性 
的 学 习 ， 然 后 再 通过 更 长 时 间 的 训练 来 进一步 提升 
HERE. RML PKA (Loss) 衡量 真实 值 与 
模型 预测 值 间 的 差异 ， 计 算 如 公式 (8) 所 示 。 


M N 
Loss 2-4; Sy! In GP) (8) 
i=ln=1 


式 中 : M 为 单一 批量 中 像素 数 的 总 和 ，PPI; N 
为 目标 分 类 数 ， 个 ; y* 为 像素 点 i 对 类 别 的 标注 ， 
正确 类 时 该 值 为 1， 否 则 为 0; 六 为 像素 点 i 为 类 别 
和 的 概率 值 。 

在 模型 学 习 过 程 中 ， 记 录 每 个 Epoch 的 训练 损 
失 值 和 验证 损失 值 ， 并 利用 Origin 绘制 如 图 8 所 示 
的 损失 值 变 化 曲线 。 由 图 8 可 知 ， 模 型 在 训练 初期 
经 历 快速 的 学 习 和 调整 阶段 ， 在 达到 约 200 次 迭代 
之 后 ， 模 型 的 性 能 变化 变 得 相对 较 小 ， 可 以 认为 模 
型 趋 于 收敛 状态 。 

2.89.2 不 同 主干 网 络 的 性 能 对 比 

为 了 验证 本 研究 的 基础 模型 对 甘蓝 研究 是 最 优 
架构 ， 采 用 相同 的 甘蓝 数据 集 和 语义 分 割 框架 Up- 
erNet， 选 用 性 能 较 好 的 主干 网 络 ResNet-50, Swin 
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图 8 UperNet-ES A 模型 损失 值 变化 曲线 
Fig. 8 The loss value curve of UperNet-ESA model 


Transformer 和 ConvNeXt 进行 训练 对 比 ， 结 果 如 
表 1 所 示 。 
表 1 基于 UperNet 框 架 的 不 同 主干 网 络 的 性 能 对 比 


Table 1 Performance comparison of different backbone net- 


works based on the UperNet framework 


主干 网 络 mPA/% mloU/% 分 割 速度 人 帧 /s) 
ResNet-50 88.86 88.72 17.6 

Swin Transformer 89.81 89.19 15.5 
ConvNeXt 90.17 90.12 17.4 


由 表 1 可 知 ，ConvNeXt 作 为 主干 网 络 在 测试 集 
上 的 表现 较 好 ， 预 测 精度 最 高 。 其 中 mPA 可 达到 
90.17%， 比 ResNet-50 和 Swin Transformer 分 别提 高 
1.31% 和 0.36%。mIoU 为 90.12%， 相 较 于 ResNet- 
50 和 Swin Transformer 分 别提 高 1.496 和 0.93%。 在 
分 割 速度 方面 ， 主 干 网 络 ConvNeXt 的 处 理 速 度 与 
ResNet-50 的 差不多 ,但 是 精度 明显 比 ResNet-50 
高 。 通 常情 况 下 ， 要 实现 精确 的 像素 级 语义 分 割 ， 
网 络 结构 更 为 复杂 ， 分 割 速度 会 有 所 下 降 。Con- 
vNeXt 网 络 将 多 个 不 同 尺寸 的 卷 积 核 组 合成 一 个 大 
的 卷 积 核 。 这 种 方法 比 传统 的 卷 积 核 更 加 灵活 ， 能 
够 捕获 更 多 的 局 部 特征 。 此 外 ，ConvNeXt 还 加 入 
自 注 意 力 机 制 ， 原 理 与 Swin Transformer 类似 ， 有 是 
采用 分 组 卷 积 ,进一步 降低 参数 数量 和 计算 复杂 
度 。 所 以 ConvNeXt 整 体 性 能 处 于 较 好 的 水 平 ， 
此 本 研究 选择 的 基础 架构 模型 以 UperNet 为 高 效 语 
义 分 割 框 架 ，ConvNeXt 作 为 主干 网 络 。 
2.9.9 ”消融 实验 

采用 消融 实验 来 验证 模型 中 不 同 部 位 改进 的 有 
效 性 。 针 对 ECA 模 块 、FAM 和 FSM 模 块 ， 设 计 3 
组 实验 ， 并 在 测试 集 上 使 用 mIoU 和 mPA 进行 评 


估 。 模 型 1 以 原始 ConvNeXt-B 作为 主干 网 络 ，UP- 
erNet 作 为 语义 分 割 框架 作为 模型 的 基础 架构 。 模 
型 2 将 ECA 模块 融合 到 模型 1 的 ConvNeXt-B 中 。 
最 后 ， 本 研究 UperNet-ESA 为 模型 3， 是 在 模型 2 
的 基础 上 将 FAM FI FSM 模块 集成 UperNet 框 架 中 。 
3 组 实验 对 比 结 果 如 表 2 所 示 。 
表 2 基于 UperNet-ConvNeXt 的 消融 实验 
Table 2 UperNet-ConvNeXt based ablation experiments 


模型 ECA FAM+FSM  mPA/% mIoU/% 
模型 1 x x 90.17 90.12 
模型 2 Y x 92.88 90.14 
模型 3 Y Y 94.32 92.45 


由 表 2 可 以 看 出 ， 本 研究 改进 的 模型 3 表现 最 
好 ，mPA 和 mIoU 分别 达 到 94.32% 和 92.45%。 通 过 
对 比 模 型 1 和 模型 2 可 以 看 出 ,将 ECA 集 成 到 主干 
网 络 ConvNeXt-B 中 有 助 于 提高 模型 的 语义 分 割 性 
能 ，mPA 和 mIoU 分 别提 高 2.71% 和 0.02%。 通 过 对 
比 模 型 3 和 模型 2 的 实验 结果 可 以 发 现 ， 在 模型 的 
UperNet 框 架 中 加 入 FAM 和 FSM 模块 后 ，mPA 和 
mIoU 分 别 增加 1.44% 和 2.31%。 以 上 3 个 消融 实验 
充分 验证 了 ECA、FAM 和 FSM 的 有 效 性 和 合理 性 。 

在 训练 过 程 中 ,为 了 考察 各 网 络 架 构 分 割 性 能 
的 变化 情况 ， 每 5 次 迭代 进行 一 次 评估 ，mIoU 和 
mPA 的 变化 结果 如 图 9 所 示 。 总 体 来 看 ， 各 模型 的 
mIoU 和 mPA 都 随 着 epoch 的 增加 而 增加 ， 最 终 趋 
于 收敛 。 本 研究 甘蓝 叶 球 分 割 模型 的 mIoU 在 整个 
训练 中 均 高 于 其 他 网 络 架构 。 其 中 模型 1 和 模型 2 
的 mIoU 曲线 相 接 近 ， 模 型 3 由 于 FAM Fil FAM 模块 
的 融合 ， 极 大 提升 了 目标 边界 的 分 割 精度 。 

综 上 述 分 析 可 知 ， 结 球 甘 蓝 叶 球 语义 分 割 的 性 
能 在 整体 训练 过 程 中 ， 优 于 原始 网 络 ， 且 能 够 通过 
学 习 获 得 更 大 的 提升 。 说 明 相 关 的 改进 对 模型 的 分 
制 性 能 和 像素 预测 精 有 一 定 程 度 的 提高 。 
2.3.4 不 同 网 络 架 构 的 性 能 对 比 

为 了 验证 本 研究 提出 的 UperNet-ESA 算 法 在 田 
间 甘 蓝 数 据 集 上 分 割 的 优势 ， 与 当前 主流 的 UNet 
模型 PSPNet 模型 LA ResNet-50、MobilenetV2、 
Xception 为 主干 的 DeepLabV3+ 模 型 进行 比较 。 从 
mPA 、mlIoU 、FPS 这 3 个 指标 进行 总 体 分 析 。 本 研 
究 改 进 的 模型 相对 其 他 模型 的 各 个 评价 指标 如 表 3 
所 示 。 

由 表 3 结 果 可 知 ， 本 研究 提出 的 UperNet-ESA 
模型 在 分 割 精度 方面 优 于 其 他 模型 。 本 研究 的 mPA 
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图 9 UperNet-ESA 模型 的 消融 实验 
Fig. 9 Ablation experiments with the UperNet-ESA model 


#3 UperNet-ESA 研 究 不 同 网 络 架 构 的 性 能 对 比 
Table 3 Performance comparison of different network architectures 
for the UperNet-ESA study 


阶段 对 目标 特征 的 判断 ， 获 取 有 效 的 全 局 上 下 文 信 
息 。 此 外 ， 虽 然 PSPNet 模 型 的 推理 速度 最 快 ， 但 
是 整体 精度 太 低 ， 不 适用 于 构建 甘蓝 语义 分 割 模 
型 。 本 研究 模型 推理 速度 比 其 他 网 络 模型 的 推理 速 
度 都 要 快 。 综 合 分 析 ， 本 研究 模型 能 够 在 保证 模型 
准确 率 的 前 提 下 尽 可 能 花 较 少 的 推理 时 间 ， 以 实现 
甘蓝 叶 球 识别 精度 与 识别 速度 的 平衡 ， 从 而 为 智能 
化 田间 管理 提供 理论 依据 。 
2.3.5 ”可 视 化 分 析 

为 了 验证 本 研究 方法 在 田间 甘蓝 图 像 分 割 任 务 
中 的 有 效 性 和 可 解释 性 ， 对 测试 集中 的 图 像 进行 推 
理 ， 并 进行 可 视 化 分 析 。 由 图 10 所 示 ， 每 一 行 分 
别 对 应 甘蓝 未 结 球 、 甘 蓝 初 结 球 、 甘 蓝 结 球 紧 实 
图 ， 每 一 列 分 别 对 应 原 图 、 人 工分 割 图 、UNet 算 
法 分 制图 、PSPNet 算 法 分 制图 、DeepLabV3+ 
(ResNet) $E ik 4 Xl [E , DeepLabV3« (Mobile- 
netV2) 算法 分 制图 、DeepLabV3+ (Xception) 算 


法 分 割 图 和 本 人 研究 算法 分 割 图 。 
由 图 10 可 得 ， 本 人 研究 算法 对 于 复杂 田间 场景 


中 的 甘蓝 叶 球 和 外 叶 分 制 具有 较 好 的 性 能 ， 分 割 效 
果 同 真实 值 间 无 明显 差异 。 错 误 分 割 通常 在 目标 边 
缘 附 近 发 生 。 只 有 少数 像素 被 错误 地 分 类 。 这 对 于 
整体 分 制 效果 来 说 影响 较 小 ， 人 有 眼 很 难 检测 到 这 些 
细微 差异 。 由 网 10c (3) 和 图 10d (3) 可 以 看 出 ， 
在 甘蓝 外 叶 相 对 较 大 的 情况 下 ， 对 叶 球 容易 产生 错 
误 分 制 。 由 图 10c (1) 和 图 10d (3) 可 知 ， 在 甘蓝 
未 结 球 的 情况 下 也 会 出 现 叶 球 识别 错误 的 情况 。 


网 络 主干 网 络 ” mPA/% ”mIoU/% 分 割 速度 /( 帧 /s) 
UNet ResNet-50 82.80 80.14 15.2 
PSPNet ResNet-50 — 80.76 — 7941 20.3 
DeeplabV3+ ^ ResNet-50 85.64 81.80 16.2 
DeeplabV3+ ^ MobilenetV2 90.01 89.19 14.4 
DeeplabV3+ Xception 88.11 85.34 15.7 
N - 
Dee, OER. NE as 16.6 
+FAM+FSM +ECA 
为 94.32%, bE UNet 模型 PSPNet 模型 PA 


ResNet-50, MobilenetV2, Xception 为 主干 的 Deep- 
LabV3+ E 9? f] mPA 值 分 别提 高 11.5296. 13.56%, 
8.6896, 4.3196 和 6.21%。 同 样 的 ， 本 研究 的 mIoU 
为 92.45%， 比 基于 UNet 模 型 、PSPNet 模 型 、 以 
ResNet-50, MobilenetV2, Xception 为 主干 的 Deep- 
LabV3+ 模 型 的 mIoU 分 别提 高 12.21%. 13.0496, 
10.65%, 3.26% 和 7.11%。 主 要 原因 是 本 模型 引入 
ECA 模 块 ， 以 及 对 特征 金字 塔 网 络 的 改进 ， 强 化 各 


因而 可 以 得 出 结论 ，UNet、PSPNet 作为 图 像 分 
割 经 典 模 型 ， 在 叶 球 分 割 识 别 上 准确 率 较 低 ， 不 
适用 于 甘蓝 作物 图 像 分 割 算法 。 对 于 图 10e (2). 
图 10f (2)、 图 10e (3) 和 图 10f (3) 分 析 可 得 ， 
算法 对 甘蓝 外 叶 间 的 间 际 分 割 不 明确 ， 在 植物 叶片 
分 割 上 存在 轮廓 不 清晰 的 问题 。 相 对 而 言 ，Deep- 
labV3+ (Mobilenet) 模型 的 分 割 性 能 与 本 研究 模型 
最 为 接近 ， 但 它 没有 充分 强调 各 个 阶段 的 判别 特 
征 。 这 可 能 导致 同一 类 别 内 的 预测 结果 不 一 致 。 结 
合 表 3 综 合 可 得 ， 本 研究 方法 在 甘蓝 不 同 生长 状态 
下 的 像素 识别 精确 度 上 具有 更 强 的 实际 泛 化 能 
此 外 ， 本 研究 的 算法 简洁 高 效 ， 具 有 较 强 的 实 
时 性 。 


大 田 复杂 背景 下 甘蓝 叶 球 的 精准 快速 分 割 识别 
利于 智能 化 管理 ， 而 甘蓝 作物 通常 具有 大 小 不 一 、 
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图 10 UperNet-ESA 模 型 与 其 他 网 络 模型 的 分 割 效 果 对 比 图 


Fig. 10 Comparison of segmentation effect of UperNet-ESA model with other network models 


光线 差异 、 形 状 不 规则 、 叶 片 交 释 遮 挡 和 目标 纹理 增 效 栽培 技术 简 析 上 中. 浙江 农业 科学 , 2023, 64(5): 1103- 
= — xe > 1106. 
JJ 等 性 占 st AS EI FIJ FE. EF frh 5 
相似 等 特点 ， 这 对 分 割 模型 提出 了 更 高 的 要 求 。 本 YUE Z C, YU GH, XUE X L, et al. Analysis of light and 
研究 针对 性 地 选择 更 适应 于 复杂 背景 下 解决 作物 分 simple and efficient cultivation techniques of autumn cab- 
割 问题 的 高 效 语义 分 割 框 架 UperNet 建立 UperNet- bage in Hangzhou[J]. Journal of Zhejiang agricultural sci- 


、 i See ar " ences, 2023, 64(5): 1103-1106. 
ESA 算 法 ， 将 先进 的 ConvNeXt 作 为 主干 网 络 。 通 (21 peii. A TA fet de lb S ep f Sz FTT. 灌溉 排水 学 


过 自 建 甘 蓝 数据 集 进行 实验 分 析 ， 根据 甘蓝 作物 的 报 , 2023, 42(7): 146. 
ee ey et 、 、 > CHEN H Y. Application of artificial intelligence in agri- 
Hd 2E 

特点 ， 再 进行 基础 网 络 的 改进 。 主要 改进 包括 主干 cultural field[J]. Journal of irrigation and drainage, 2023, 

网 络 和 ECA 模块 的 融合 、 特 征 金字 塔 网 络 和 FAM、 42(7): 146. 

FSM 的 集成 以 及 网 络 训练 参数 的 调整 。 [3] 刘海 桥 , 刘 萌 , ETHE, 等 . 基于 深度 学 习 的 图 像 匹配 方 
MER od dci od ios m 法 综述 [WOL]. 航空 学 报 , (2024-01-16). https://kns.cnki. 
实验 结果 表明 ， 本 人 研究 提出 的 UperNet-ESA 模 net/kcms/detail/11.1929. V.20240115.1139.004.html. 

型 在 性 能 上 优 于 原始 网 络 ; 日 与 当前 主流 的 语义 分 LIU H Q, LIU M, GONG Z C, et al. A review of image 

ag P 2s bir alr He BES JE 66 Az SJ: TT E Eb matching methods based on deep learning[J/OL]. Acta 

Pil P25 AEG, AS TUES US CHEE A E RE P HS | foe CER aeronautica et astronautica sinica, (2024-01-16). 

度 - 速 度 平衡 效果 ， 其 中 mIoU F mPA 分 别 达 到 https://kns. cnki. net/kcms/detail/11.1929. V. 20240115.113 

92.45% 和 94.32% ， 推 理 速度 可 达 16.6 fps。 在 后 续 - 

QS Rs i i IAS ges [4] 赵 永 强 , 金 芝 , 张 峰 , 等 . 深度 学 习 图 像 描述 方法 分 析 与 
研究 中 ， 将 对 现 有 的 模型 进一步 优化 和 改进 ， 同 时 RED. 中 国 图 象 图 形 学 报 , 2023, 28(9): 2788-2816. 
丰富 甘蓝 数据 集 ; 以 包含 更 多 不 同 种 类 的 结 球 甘 蓝 ZHAO Y Q, JIN Z, ZHANG F, et al. Deep-learning-based 

p «Ab SB EH IST A RR EL HE EHE > ium image captioning: Analysis and prospects[J]. Journal of 

叶 球 样本 ， 为 智能 化 甘蓝 田间 管理 提供 更 为 可 靠 和 image and graphics, 2023, 28(9): 2788-2816. 

全 面 的 理论 支持 。 [5] MINAEE S, BOYKOV Y, PORIKLI F, et al. Image seg- 

mentation using deep learning: A survey[J]. IEEE trans 

利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 pattern anal mach intell, 2022, 44(7): 3523-3542. 

研究 成 果 有 关 的 利益 冲突 [6] GANP X, LUO X Y, LIU B, et al. Research on semantic 


segmentation method of urban streetscape image based on 
deep learning[C]// Seventh Asia Pacific Conference on 
会 Optics Manufacture and 2021 International Forum of 
参考 文献 : Young Scientists on Advanced Optical Manufacturing 
[1] 岳 智 臣 , 俞 国 红 , SEIL Ai, 等 . 杭州 秋季 露地 甘蓝 轻 简化 (APCOM and YSAOM 2021). Burlingame, California, 


136 


智慧 农业 (中 英文 ) Smart Agriculture 


Vol. 6,No. 3 


[7] 


[8] 


[9] 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


USA: SPIE, 2022. 

HA, TE, 吴 陈 铭 , 等 . 基于 深度 学 习 的 农业 植物 表 型 
研究 综述 四. 中 国 科学 (生命 科学 ), 2019, 49(6): 698-716. 
WENG Y, ZENG R, WU C M, et al. A survey on deep- 
learning-based plant phenotype research in agriculture[J]. 
Scientia sinica (vitae), 2019, 49(6): 698-716. 

刘 俊 奇 , 涂 文 轩 , PUR . FEES BUTS EAR SRT]. 计算 机 
工程 与 科学 , 2023, 45(8): 1472-1481. 

LIU J Q, TU W X, ZHU E. Survey on graph convolution- 
al neural network[J]. Computer engineering & science, 
2023, 45(8): 1472-1481. 

郭 庆 梅 , TH JJ, E PUI, 等 . 基于 卷 积 神经 网 络 的 图 像 
分 类 模型 综述 加. 电子 技术 应 用 , 2023, 49(9): 31-38. 
GUO Q M, YU HL, WANG Z X, et al. Review of image 
classification models based on convolutional neural net- 
works[J]. Application of electronic technique, 2023, 49 
(9): 31-38. 

TREE, 姚 庆 安 , 赵 健 , 等 . 全 卷 积 神经 网 络 网 像 语义 分 割 
方法 综述 四. 计算 机 工程 与 应 用 , 2022, 58(8): 45-57. 
ZHANG X, YAO Q A, ZHAO J, et al. Image semantic 
segmentation based on fully convolutional neural net- 
work[J]. Computer engineering and applications, 2022, 58 
(8): 45-57. 

ZHANG D Y, ZHANG W H, CHENG T, et al. Segmenta- 
tion of wheat scab fungus spores based on CRF. ResU- 
Net++[J]. Computers and electronics in agriculture, 2024, 
216: ID 108547. 

ZHENG C, CHEN P F, PANG J, et al. A mango picking 
vision algorithm on instance segmentation and key point 
detection from RGB images in an open orchard[J]. Biosys- 
tems engineering, 2021, 206(6): 32-54. 

ERR, 武 新 慧 , 张 燕 青 , 等 . 基于 双 注 意 力 语义 分 割 网 络 
的 田间 苗 期 玉米 识别 与 分 割 回 . 农业 工程 学 报 , 2021, 37 
(9): 211-221. 
WANG C, WU X H, ZHANG Y Q, et al. Recognition and 
segmentation of maize seedlings in field based on dual at- 
tention semantic segmentation network[J]. Transactions of 
the Chinese society of agricultural engineering, 2021, 37 
(9): 211-221. 

刘 平 , XU 3r MS, 王 春 颖 , 等 . 基于 机 咒 视 觉 的 田间 小 麦 开 
TE RIA E 7r UT. 农业 机 械 学 报 , 2022, 53(3): 251-258. 
LIU P, LIU L P, WANG C Y, et al. Determination method 
of field wheat flowering period baesd on machine vi- 
sion[J]. Transactions of the Chinese society for agricultur- 
al machinery, 2022, 53(3): 251-258. 

SONG Z Z, ZHOU Z X, WANG W Q, et al. Canopy seg- 


[16] 


[17] 


[18] 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


mentation and wire reconstruction for kiwifruit robotic 
harvesting[J]. Computers and electronics in agriculture, 
2021, 181: ID 105933. 

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. 
An image is worth 16x16 words: Transformers for image 
recognition at scale[ EB/OL ]. arXiv: 2010.11929, 2020. 
ZHENG S X, LU J C, ZHAO H S, et al. Rethinking se- 
mantic segmentation from a sequence-to-sequence per- 
spective with transformers[EB/OL]. arXiv: 2012.15840, 
2020. 

REEDHA R, DERICQUEBOURG E, CANALS R, et al. 
Transformer neural network for weed and crop classifica- 
tion of high resolution UAV images[J]. Remote sensing, 
2022, 14(3): ID 592. 

XIE E Z, WANG W H, YU Z D, et al. SegFormer: Simple 
and efficient design for semantic segmentation with trans- 
formers[J]. arXiv: 2105.1520, 2021. 

XIAO T T, LIU Y C, ZHOU B L, et al. Unified perceptual 
parsing for scene understanding[M]// Computer Vision - 
ECCV 2018. Cham: Springer International Publishing, 
2018: 432-448. 

LIU Z, MAO H, WU C Y, et al. A ConvNet for the 
2020s[C]// 2022 IEEE/CVF Conference on Computer Vi- 
sion and Pattern Recognition (CVPR). New Orleans, Loui- 
siana, USA: IEEE, 2020: 11966-11976. 

TAKAHASHI R, MATSUBARA T, UEHARA K. Data 
augmentation using random image cropping and patching 
for deep CNNs[J]. IEEE transactions on circuits and sys- 
tems for video technology, 2020, 30(9): 2917-2931. 

DIAO Z H, GUO P L, ZHANG B H, et al. Maize crop 
row recognition algorithm based on improved UNet net- 
work[J]. Computers and electronics in agriculture, 2023, 
210: ID 107940. 

YANG C Z, GUO H J. A method of image semantic seg- 
mentation based on PSPNet[J]. Mathematical problems in 
engineering, 2022, 2022: ID 8958154. 

马 冬 梅 , IEEE, 黄 欣 悦 , 等 . 改进 DeepLabV3+ 的 高 效 
语义 分 割 四 . 计算 机 工程 与 科学 , 2022, 44(4): 737-745. 
MA D M, LI P H, HUANG X Y, et al. Efficient semantic 
segmentation based on improved DeepLabV3- [J]. Com- 
puter engineering & science, 2022, 44(4): 737-745. 

LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierar- 
chical Vision Transformer using Shifted Windows[C]// 
2021 IEEE/CVF International Conference on Computer 
Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 
2021: 10012-10022. 


Identification Method of Kale Leaf Ball Based on 
Improved UperNet 


ZHU Yiping", WU Huarui' ^^, GUO Wang"", WU Xiaoyan’ 


(1. School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang 212013, China; 2. Na- 


tional Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China; 3. Information 


Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China; 4. Key Labo- 
ratory of Digital Village Technology, Ministry of Agriculture and Rural Affairs, Beijing 100097, China) 


Vol. 6, No. 3 朱 轶 萍 等 ， 基 于 改进 UperNet 的 结 球 甘蓝 叶 球 识别 方法 137 


Abstract: 

[Objective] Kale is an important bulk vegetable crop worldwide, its main growth characteristics are outer leaves and leaf bulbs. The 
traits of leaf bulb kale are crucial for adjusting water and fertilizer parameters in the field to achieve maximum yield. However, vari- 
ous factors such as soil quality, light exposure, leaf overlap, and shading can affect the growth of in practical field conditions. The sim- 
ilarity in color and texture between leaf bulbs and outer leaves complicates the segmentation process for existing recognition models. 
In this paper, the segmentation of kale outer leaves and leaf bulbs in complex field background was proposed, using pixel values to de- 
termine leaf bulb size for intelligent field management. A semantic segmentation algorithm, UperNet-ESA was proposed to efficiently 
and accurately segment nodular kale outer leaf and leaf bulb in field scenes using the morphological features of the leaf bulbs and out- 
er leaves of nodular kale to realize the intelligent management of nodular kale in the field. 

[Methods] The UperNet-ESA semantic segmentation algorithm, which uses the unified perceptual parsing network (UperNet) as an ef- 
ficient semantic segmentation framework, is more suitable for extracting crop features in complex environments by integrating seman- 
tic information across different scales. The backbone network was improved using ConvNeXt, which is responsible for feature extrac- 
tion in the model. The similarity between kale leaf bulbs and outer leaves, along with issues of leaf overlap affecting accurate target 
contour localization, posed challenges for the baseline network, leading to low accuracy. ConvNeXt effectively combines the strengths 
of convolutional neural networks (CNN) and Transformers, using design principles from Swin Transformer and building upon 
ResNet50 to create a highly effective network structure. The simplicity of the ConvNeXt design not only enhances segmentation accu- 
racy with minimal model complexity, but also positions it as a top performer among CNN architectures. In this study, the ConvNeXt- 
B version was chosen based on considerations of computational complexity and the background characteristics of the knotweed kale 
image dataset. To enhance the model's perceptual acuity, block ratios for each stage were set at 3:3:27:3, with corresponding channel 
numbers of 128, 256, 512 and 1 024, respectively. Given the visual similarity between kale leaf bulbs and outer leaves, a high-efficien- 
cy channel attention mechanism was integrated into the backbone network to improve feature extraction in the leaf bulb region. By in- 
corporating attention weights into feature mapping through residual inversion, attention parameters were cyclically trained within each 
block, resulting in feature maps with attentional weights. This iterative process facilitated the repeated training of attentional parame- 
ters and enhanced the capture of global feature information. To address challenges arising from direct pixel addition between up-sam- 
pling and local features, potentially leading to misaligned context in feature maps and erroneous classifications at kale leaf boundaries, 
a feature alignment module and feature selection module were introduced into the feature pyramid network to refine target boundary 
information extraction and enhance model segmentation accuracy. 

[Results and Discussions] The UperNet-ESA semantic segmentation model outperforms the current mainstream UNet model, PSPNet 
model, DeepLabV3+ model in terms of segmentation accuracy, where mloU and mPA reached 92.45% and 94.32%, respectively, and 
the inference speed of up to 16.6 frames per second (fps). The mPA values were better than that of the UNet model, PSPNet model, 
ResNet-50 based, MobilenetV2, and DeepLabV3+ model with Xception as the backbone, showing improvements of 11.52%, 13.56%, 
8.68%, 4.31%, and 6.21%, respectively. Similarly, the mIoU exhibited improvements of 12.21%, 13.04%, 10.65%, 3.26% and 7.11% 
compared to the mIoU of the UNet-based model, PSPNet model, and DeepLabV3+ model based on the ResNet-50, MobilenetV2, and 
Xception backbones, respectively. This performance enhancement can be attributed to the introduction of the ECA module and the im- 
provement made to the feature pyramid network in this model, which strengthen the judgement of the target features at each stage to 
obtain effective global contextual information. In addition, although the PSPNet model had the fastest inference speed, the overall ac- 
curacy was too low to for developing kale semantic segmentation models. On the contrary, the proposed model exhibited superior in- 
ference speed compared to all other network models. 

[Conclusions] The experimental results showed that the UperNet-ESA semantic segmentation model proposed in this study outper- 
forms the original network in terms of performance. The improved model achieves the best accuracy-speed balance compared to the 
current mainstream semantic segmentation networks. In the upcoming research, the current model will be further optimized and en- 
hanced, while the kale dataset will be expanded to include a wider range of samples of nodulated kale leaf bulbs. This expansion is in- 
tended to provide a more robust and comprehensive theoretical foundation for intelligent kale field management. 
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